现有的唱歌语音合成模型(SVS)通常在唱歌数据上进行训练,并取决于容易出错的时间对齐和持续时间功能或明确的音乐得分信息。在本文中,我们提出了Karaoker,Karaoker是一种基于多言式Tacotron的模型,该模型以语音特征为条件,该功能专门针对口语数据进行训练,而无需时间对齐。卡拉克(Karaoker)在从看不见的歌手/扬声器的源波形中提取的多维模板之后,综合了歌声和传输风格。该模型在连续数据上以单个深卷积编码为共同条件,包括音高,强度,和谐,实扣,cepstral峰值突出和八度。我们通过功能重建,分类和说话者身份识别任务扩展了文本到语音训练目标,这些任务将模型指导到准确的结果。除多任务外,我们还采用了Wasserstein GAN训练方案以及声学模型的输出的新损失,以进一步完善模型的质量。
translated by 谷歌翻译
在这项工作中,我们介绍了SOMOS数据集,这是第一个大规模的意见分数(MOS)数据集,该数据集由完全神经文本到语音(TTS)样本组成。它可以用于训练专注于现代合成器评估的自动MOS预测系统,并可以刺激声学模型评估的进步。它由LJ语音语音的20k合成话语组成,LJ语音是一个公共领域的语音数据集,是建立神经声学模型和声码器的常见基准。来自200 TTS系统(包括香草神经声学模型以及允许韵律变化的模型)产生的话语。 LPCNET VOCODER用于所有系统,因此样品的变化仅取决于声学模型。合成的话语提供了平衡,足够的域和长度覆盖范围。我们对3个英国亚马逊机械土耳其人地点进行了MOS自然评估,并共享实践,从而为这项任务提供可靠的人群注释。我们为SOMOS数据集上的最先进的MOS预测模型提供了基线结果,并显示了该模型在评估TTS话语时所面临的局限性。
translated by 谷歌翻译